首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 5分钟给它换个“超强AI脑”,好用到全家惊呆!

    我们用一个叫 Lerio AI Speaker 的工具,给小爱同学来一次“原地飞升”。一、为什么要折腾这一出?一句话总结: 给小爱同学换个“更聪明的大脑”。 二、准备工作(3样东西就够)在开始之前,先确认你有下面这些:1️⃣ 小米账号(已经绑定小爱音箱)2️⃣ Lerio AI Speaker 账号(音箱和大模型之间的“中转站”)3️⃣ Xiaomi MiMo 三、手把手教程(一步一步来)1️⃣ 登录 Lerio 控制台打开: https://mi.lerio.cn/dashboard注册并登录后,你会看到一个非常清爽的后台界面。 AI 角色关键词,测试是否生效。 关注我,后面继续分享更多智能家居和 AI 的“野路子玩法”。

    57700编辑于 2026-02-15
  • 来自专栏新智元

    AI 引擎】前谷歌VP:机器实现情感智能化 | 微软发布Speaker Recognition | 五角大楼在AI武器上大投资

    2.微软Oxford识别演讲者和视频API发布 从微软公司公开展示其Speaker Recognition 和可应用的Video APIs来看,微软的Oxford 项目正处于加速发展中。 3.五角大楼至少投资120亿美元来支持AI武器技术 美国五角大楼最近公布了其2017年的财政预算要求,其包括:拨出120亿美元到150亿美元用于军事演习、实验研究以及新技术的展示。

    76160发布于 2018-03-13
  • 来自专栏数据和云

    2022数据技术嘉年华 Call for Speaker 正式启动!

    为此,2022数据技术嘉年华“Call for Speaker”正式启动!我们诚邀您站上舞台、分享您的真知灼见,与参会来宾共话数据技术的未来。   call for  speaker 招募对象 对数据库的行业应用有深入实践或对数据库开发、管理有独特见解和深入思考的数据库/数据技术领域从业者,包括但不局限于行业用户、技术专家、资深DBA/开发者/架构师

    47910编辑于 2022-09-09
  • 来自专栏深度应用

    ·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)

    Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification 目录 ABSTRACT 1. INTRODUCTION 说话者验证(Speaker verification.SV)是基于来自他/她的语音信号的信息接受或拒绝说话者的身份认证的任务。 Dumouchel,“Speaker and session variability in GMM-based speaker verification,” IEEE Transactions on Audio Kenny, “Bayesian speaker verification with heavy-tailed priors,” in Proc. Speaker Recognition, Identification and Verification, 1994

    1.5K30发布于 2019-06-27
  • 重生之我在大学自学鸿蒙开发第七天-《AI语音朗读》

    : Speaker = new Speaker(); content: string = '余承东邀请你开启鸿蒙体验之旅 欢迎来到HarmonyOS世界'; aboutToAppear(): $r('app.media.ic_AI_read_on') : $r('app.media.ic_AI_read_normal')) .width(40) .height $r('app.media.ic_AI_read_on') : $r('app.media.ic_AI_read_normal')) .width(40) .height(40) .onClick 若切换后为 true(开始播放):调用 speaker.startSpeak(this.content),传入需要朗读的文本 content,由 Speaker 类处理文本转语音并播放。 若切换后为 false(停止播放):调用 speaker.stopSpeak(),由 Speaker 类终止当前语音播放。 3.

    19110编辑于 2025-12-21
  • 来自专栏404 Not F0und

    从Black Hat Speaker到国内外研究者:强化学习的安全应用

    AI Village October 24th,2018: CSS2018 November 3rd,2018: AV TOKYO 2018 Hive December 6th,2018: Black

    1.2K40编辑于 2022-10-31
  • 来自专栏机器之心

    业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

    我们还发现 Deep Speaker 可以学习到独立于语言的特征。当仅在普通话语音上训练时,Deep Speaker 在英语的验证和识别任务上分别实现了 5.57% 的 EER 和 88% 的准确度。 有关 Deep Speaker 模型、训练技术和实验结果的详情,请参阅论文,以下是该论文的摘要: 论文:Deep Speaker:一种端到端神经说话人嵌入系统(Deep Speaker: an End-to-End Neural Speaker Embedding System) ? 我们提出了 Deep Speaker,这是一个基于神经网络的说话人嵌入系统(neural speaker embedding system),这个系统可以将话语映射到一个超平面,从而可以通过余弦相似度来衡量说话人的相似度 图 1:Deep Speaker 架构示意图 ?

    1.5K80发布于 2018-05-08
  • 来自专栏音视频技术

    揭秘腾讯云最新音视频及融合通信技术实践

    AI技术如何为音视频赋能? 6月29日·北京 | 云+社区邀请了多位腾讯资深工程师,全面解析腾讯云音视频及融合通信技术,分享最新的低延迟技术、全新的商业直播方案技术实现以及音视频AI技术落地。 孙祥学 腾讯高级工程师 Speaker:毕业于华中科技大学。 Topic:音视频AI技术落地实践 腾讯智眸基于腾讯领先的音视频 AI 技术,为广电新媒体、短视频、泛娱乐及在线视频场景提供了一整套的视频解决方案,主要包括极速高清、视频智能识别和分析、视频在线编辑等产品 ,视频智能识别和分析又是其中将AI技术结合得最为紧密的解决方案,广泛应用于视频审核、视频检索、视频分析等场景中。 本次分享也主要围绕AI技术在视频智能识别和分析的应用,以及实际落地过程中遇到的挑战以及解决办法。

    3K10发布于 2019-07-01
  • 小智AI音箱企业级应用篇:从智慧家庭到智慧空间的商业落地实践

    小智AI音箱企业级应用篇:从智慧家庭到智慧空间的商业落地实践 在前两篇文章中,我们分别探讨了小智AI音箱的核心技术架构与高阶开发能力。 本文将视角转向企业级市场,深入剖析小智AI音箱如何从“家庭娱乐设备”演变为酒店、办公、医疗、零售等垂直场景的智能交互终端,并提供可复用的解决方案框架、集成代码模板与商业价值分析。 识别说话人身份 speaker = identify_staff(audio) if speaker.role == "customer": product = ) elif speaker.role == "staff": if "盘点" in text: zone = extract_zone /cert.pem 结语:语音交互,正在重塑企业服务边界 小智AI音箱不再局限于客厅角落,而是作为可编程的智能交互节点,嵌入到酒店房间、手术室、会议室与零售货架之中。

    30510编辑于 2025-12-23
  • 来自专栏Reinvent Data Science

    Milvus 实战|生物多因子认证系列 (一):声纹识别

    | Milvus 向量搜索引擎 Milvus 支持使用多种 AI 模型向量化非结构化数据,并为向量数据提供搜索分析服务。 以 Deep Speaker 模型生成的特征向量为依据,声纹识别方法流程如下图所示: 声纹注册:将麦克风收集的注册人语音通过 Deep Speaker 模型转为特征向量,并将注册人的声纹特征导入 Milvus 首先将人脸图片和声纹语音利用 AI 模型转为特征向量。然后将注册人的人脸特征和声纹特征分别存入 Milvus 中的人脸库和声纹库,并指定该注册人的 id 用于身份验证。 在身份认证的时候,同样先利用 AI 模型提取认证人的人脸特征和声纹特征,然后分别在 Milvus 的人脸库和声纹库中进行检索。 "X-vectors: Robust DNN embeddings for speaker recognition."

    2.3K20发布于 2020-06-28
  • 来自专栏音视频技术

    5G万物智联下互联网通信技术升级之路

    2019年伴随着5G、AI热度持续升高即时通讯和音视频技术将会有哪些发展? Speaker:汤然(青石),哔哩哔哩视频云团队后端开发资深工程师。主要负责B站视频转码系统维护和优化。 Speaker:Zoe Liu,微帧科技联合创始人兼首席科学家。Zoe与合伙人朱政一起于2018年7月创立微帧。 东方新闻:直播平台建立监控体系实践 随着5G来临和相关技术(AI+流媒体)的不断发展,在线直播行业发展持续加速。 ;对音视频方面的AI技术也有一定的理解。

    71630发布于 2019-10-15
  • 来自专栏FreeSWITCH中文社区

    Bark-一种GPT风格的TTS

    上面简单介绍了下Bark项目以及笔者的使用体验,下面发下它在GitHub的项目地址:https://github.com/suno-ai/bark Bark是安装是很简单的,但是因为项目在外网的原因,以及在第一次使用过程中需要从外网下载训练数据 pip install git+https://github.com/suno-ai/bark.git && \ pip uninstall -y torch torchvision torchaudio 在安装好Python环境后,打开命令行,使用git命令拉取代码并进行安装: git clone https://github.com/suno-ai/bark cd bark pip install """ audio_array_1 = generate_audio(text_1, history_prompt="zh_speaker_0") text_2 = ''' 让互联互通更顺畅、 四、踩过的坑 Bark提供了10种音色,它们分别是zh_speaker_0 ~ zh_speaker_9。不过笔者测试其中zh_speaker_5生产的音频文件是有问题的,播放的都是杂音。

    1.5K41编辑于 2023-09-03
  • 来自专栏用户1191175的专栏(2)

    OpenClaw 创意实验室:当AI成为你的数字替身

    OpenClaw创意实验室:当AI成为你的"数字替身"前言当AI能理解、操作、学习时,它就不再是工具,而是可以成为"数字替身"。 return{'agent_id':self.profile['user_id'],'opening':opening}asyncdefon_message(self,speaker,message): """处理会议消息"""#记录对话self.conversation_history.append({'speaker':speaker,'message':message,'timestamp':datetime.now _should_respond(speaker,message):response=awaitself. _generate_response(speaker,message)returnresponsereturnNoneasyncdefend_meeting(self):"""结束会议,生成纪要"""summary

    30610编辑于 2026-02-07
  • 来自专栏音视频技术

    元宇宙入局之路;从“芯”出发,布局未来;音视频企业“走出去”

    元宇宙入局之路 —— 新风口,新挑战 Speaker 张琼芳  微软 首席研发经理 刘一鸣  英伟达 解决方案架构师 赵春雨  汽车之家 直播与视频技术负责人 迟小羽  北航青岛研究院副院长 本圆桌将从数字人/虚拟人、基于AI/引擎生产内容、扩展现实等元宇宙相关技术来一同探讨元宇宙的入局之路应该如何走。 从“芯”出发,布局未来 Speaker 张磊  瀚博半导体 创始人、CTO和总架构师 刘迅思  镕铭微电子 工程副总裁 虞新阳  沐曦 AI解决方案总监 韩巍  北京博雅睿视科技有限公司 联合创始人 攻城略地,音视频企业“走出去” Speaker 张建磊  Opera 技术副总监 薛  笛    腾讯云专家工程师 , 腾讯云音视频后台研发负责人 周思进  好未来 直播技术负责人 音视频企业选择出海需具有哪些必备条件与要素

    73520编辑于 2023-04-04
  • 来自专栏ATYUN订阅号

    谷歌开源AI新模型,区分语音准确度达到92%

    Speaker diarization即根据谁说什么,以及什么时候说,将语音样本划分为独特的,同质的片段的过程,对机器来说不像人类那么容易,并且训练机器学习算法来执行它很难。 但谷歌的AI研究部门已在性能模型方面取得了不错的进展。 在一篇新论文“Fully Supervised Speaker Diarization”和随附的博客文章中,研究人员描述了一种新的AI系统,该系统以更有效的方式利用受监督的说话者标签。 在流媒体音频上的Speaker diarization,底部轴不同的颜色表示不同的说话者。

    68220发布于 2018-12-13
  • 来自专栏音视频技术

    【专题介绍】开源与创新

    ---- 讲师与议题 毕伟 Speaker 网易云信 资深研发工程师   毕伟,网易云信资深研发工程师。2021年加入云信,多年音视频引擎开发经验,目前主要负责网易云信低延时直播项目。 未来和展望 赵志立 Speaker 腾讯云  客户端开发工程师 赵志立,腾讯云客户端开发工程师,多年音视频从业经验和开源社区经验,VLC/FFmpeg开发者。 VideoLan开源社区和VLC常见问题答疑 何俊彦 Speaker 英特尔 加速计算系统与图形部工程师 何俊彦, Intel加速计算系统与图形部工程师,多媒体框架开发主要负责人,Gstreamer 在AI时代,随着例如DeepStream, DLStreamer等AI插件的推出, Gstreamer必将被越来越多的应用于集编解码,AI,渲染等于一体的综合应用场景中。 Topic FFmpeg AI推理+图形渲染的可定制GPU管线 AI推理和图形一体的转码流程在数据中心中受到越来越多的关注,业界也已经部署了诸如虚拟主播和云端特效的应用。

    1.7K10编辑于 2022-04-12
  • 来自专栏音视频技术

    【专题介绍】客户端建设及调优实践

    ---- 讲师与议题 何必苍 Speaker RingCentral 视频与媒体研发高级总监   何必苍,现任RingCentral视频与媒体研发高级总监,杭州研发中心负责人。 Topic AI时代的视频云转码移动端化 AI技术的落地是渐渐地从服务器端、云端落地,逐步到移动端及边缘设备上。 随着算法不断完善、硬件能力的不断提升,基于AI的实时视频增强处理技术也落地于实时直播或视频通话场景,而对于很多涉及隐私的场景,越来越多的用户期望AI技术能够本地化,而不是要经过云端。 视频转码AI算法模型设计规则 3. 利用端智能提供极致播放体验之路 周文业 Speaker 美团 音视频研发工程师 周文业,美团音视频研发工程师,视频超分和直播项目负责人。

    1.2K30编辑于 2022-04-18
  • 来自专栏数据派THU

    原创 | 带你走近2022全球人工智能大会--IDEAS(2022)会议实录

    2022 IDEAS AI会议议题 1.  CONVERSATIONAL AI: BEYOND STOCHASTIC PARROTS(对话式人工智能:超越随机鹦鹉) Speaker: Peter Voss LinkedIn: https://www.linkedin.com ARCHITECT YOUR AI PLATFORM WITH OPTIMIZED DATA PIPELINE(用优化的数据管道构建ai平台) Speaker: Bin Fan(ALLUXIO) 数据编排可以提供帮助 数码产品 – Staking – Financial incentives – Tradability – Utility D.区块链科技公司 参会心得 笔者有幸参加了2022 IDEAS AI会议 人工智能 人工智能(AI)是指机器或计算机系统执行通常需要人类智能水平的任务的能力,例如模式识别、决策或从数据中学习。

    1.2K30编辑于 2023-03-29
  • 来自专栏猫窜游戏

    【语音识别】一键实现电话录音转word文档

    众所周知,律师最值钱的就是时间了,那么这样一份繁琐的转写录音文件的工作流程,能不能够使用AI的科技手段实现呢? , 'start_time': 24080, 'end_time': 26130, 'speaker_id': 0}, {'text': '刚刚。' , 'start_time': 55740, 'end_time': 58770, 'speaker_id': 1}, {'text': '啊,是。' , 'start_time': 149800, 'end_time': 151370, 'speaker_id': 1}, {'text': '哦。' , 'start_time': 170090, 'end_time': 173425, 'speaker_id': 1}, {'text': '啊。'

    2.7K51编辑于 2024-06-03
  • 来自专栏技术文章

    C# Web应用调用EXE文件的一些实践

    该测试效果如下图: 打开AI语音合成配置如下: 如图配置中,可以选择朗读人角色,音量大小,音调高低和控制语速选项, 此款应用将在合成音视频中起到关键作用。 string tts = "D:\\tts\\edgetts.exe"; string tts_para = " -s " + x_speaker.SelectedValue; "; if (x_speaker.SelectedValue == "xiaoxiao" || x_speaker.SelectedValue == "xiaoyi" || x_speaker.SelectedValue == "yunxia") { imgurl = "https://" + Request.Url.Host + "/test/ai/images

    <asp:DropDownList ID="x_<em>speaker</em>

    45710编辑于 2024-06-20
领券